طبقه بندی موضوعی اسناد با استفاده از رویکرد هسته

thesis
abstract

طبقه بندی اسنادltrfootnote{text classification, text categorization} عبارت است از نسبت دادن یک سند به یک یا چند موضوع از پیش تعیین شده. در سال های اخیر تولید اسناد متنی دیجیتال با یک رشد نمایی مواجه بوده است، به همین دلیل لزوم طبقه بندی صحیح آن ها برای دسترسی بهتر امری ضروری به نظر می رسد. کاربرد طبقه بندی اسناد می توان بسیار متنوع باشد، طبقه بندی صفحات وب، متون علمی، اخبار، رایانامه، کتاب و ... جستجو برای یک عبارت در google اکنون به چیزی فراتر از یک واقعیت تبدیل شده است. در آینده? نزدیک با پیشرفت روش های طبقه بندی اسناد، نحوه? دسترسی مردم به اطلاعات به نحوی شگرفی تغییر خواهد کرد. طبقه بندی اسناد شامل یک مدل یادگیرنده برای مجموعه ای از کلاس ها و بکار بردن آن ها برای اسناد جدید و انتساب یک کلاس به آن ها می باشد. این امر اکثراً یک کار آموزشی به همراه یک مربی می باشد. به این صورت که یک مجموعه? آموزشی اولیه که شامل تعداد سند و موضوعات از پیش تعیین شده می باشد، به عنوان ورودی به سیستم داده می شود. سپس سیستم برای شناسایی موضوع سایر اسناد آموزش داده می شود. این مراحل شامل پیش پردازش (نمایش سند، کاهش ابعاد و استخراج ویژگی ها) و مراحل آموزش و آزمایش می باشد. عموماً مرحله? پیش پردازش شامل ??? زمان و تلا ش های محاسباتی می شود. با توجه به اینکه روش های مبتنی بر هسته قابلیت های زیادی از خود نشان داده اند، توسعه? یک روش مبتنی بر رویکرد هسته برای زبان فارسی مد نظر قرار داده شد. طبقه بندی متون زبان فارسی به دلیل پیچیدگی ها و مشکلاتی که دارد (اکثر این مشکلات متوجه زبان فارسی نبوده و از آگاهی کم افراد ناشی می شود)، کاری دشوار می باشد. برای انجام طبقه بندی یک سری پیش نیازهایی وجود دارد (همانند سایر زبان ها)، مثلاً وجود یک فهرست از کلمات ایست (همانند فهرست های متنوعی که برای زبان انگلیسی وجود دارد)، وجود یک روش استاندار و قابل قبول برای ریشه یابی (همانطور که زبان انگلیسی وجود دارد). متأسفانه علی رغم اینکه کارهای تحقیقاتی زیادی در این حوزه صورت گرفته است، ولی به دلیل منسجم نبودن کارها و عدم حمایت از سوی یک نهاد واحد، تلاش ها آن طور که شایسه و بایسته است به ثمر ننشسته است و این مسأله انجام کارهایی را که مراحل ذکر شده به عنوان سنگ بنای آن می باشد، دشوارتر نموده است. نگارنده علی رغم پیگیری ها و تماس های مکرری که با فرهنگستان زبان و ادب فارسی داشته است، موفق به جلب نظر آن ها برای همکاری در این پروژه نشده است. حتی اجازه? دسترسی به نتایج تحقیقات گذشته نیز به راحتی مقدور و میسر نبوده است. با توجه به همه? مشکلاتی که برشمرده شد، در نهایت یک روش مبتنی بر هسته برای طبقه بندی متون دیجیتال فارسی توسعه داده شد. متأسفانه به دلیل نبود یک روش و مجموعه? استاندارد (همانند نمونه هایی که برای زبان انگلیسی وجود دارد)، امکان مقایسه? این روش با سایر روش های موجود برای زبان فارسی به صورت کامل محیا نشد. البته تا جایی که مقدور بوده است، از روش های استاندارد ارزیابی استفاده شده است. انجام آزمایش ها با استفاده از متون انتخابی از اخبار خبرگزاری جمهوری اسلامی انجام پذیرفته است (البته آموزش های سیستم نیز با استفاده از بخشی از این اسناد انجام گرفته است).

First 15 pages

Signup for downloading 15 first pages

Already have an account?login

similar resources

طبقه بندی سنگ ‏های ساختمانی از دیدگاه قابلیت برش با استفاده از روش خوشه بندی فازی

پیش بینی قابلیت برش سنگ به عنوان یکی از فاکتورهای موثر در تخمین هزینه‏ها و پیش بینی میزان تولید یک کارخانه فرآوری سنگ از اهمیت بالایی برخوردار می‏باشد. بنابراین شناخت کامل سنگ‏های ساختمانی و ارزیابی توان اجرایی دستگاه‏های برش در کارخانه‏های فرآوری، طراحان و برنامه‏ریزان تولید را به سمت بهبود سرعت فرآوری و افزایش تولید سوق می‏دهد. از اینرو، به کارگیری روش‏های نو و کاربردی برای دست‏یابی به این اه...

full text

توسعه و تبیین یک پیکربندی برای طبقه بندی زنجیره‌های تامین با استفاده از رویکرد منبع محور در صنعت خودرو

مدیریت استراتژیک زنجیره‌های تامین در سال‌های اخیر توجه زیادی را به خود جلب کرده است. رویکرد پیکربندی زنجیره تامین برای مدیریت استراتژیک جریان مواد و اطلاعات زنجیره تامین مطرح می‌باشد. اکثر پیکربندی‌های ارائه شده تا به حال در بخش جهت‌گیری استراتژیک مبتنی بر عوامل محیطی و رویکرد کلاسیک ساختار-رفتار-عملکرد می‌باشد. بررسی پیکربندی‌های زنجیره تامین از نظر منابع و توانمندی‌های استراتژیک زنجیره‌های تا...

full text

تحلیل صدای گریه نوزاد با استفاده از طبقه بند بازنمایی تنک مبتنی بر هسته

پردازش صدای گریه نوزاد اطلاعات مفیدی در مورد وضعیت نوزاد در اختیار قرار ­می­دهد. این اطلاعات می­تواند به منظور تشخیص بیماری و یا درک نیاز نوزاد استفاده شود. این مقاله به تحلیل صدای گریه نوزاد با روی‌کرد تفکیک دو نوع منشاء درد و گرسنگی در صدای گریه پرداخته است. الگوهای بازنمایی تنک علامت (سیگنال) یکی از جدیدترین ابزار­های پردازش در حوزه بازشناسی الگو است. از این‌­رو، در مقاله جاری چارچوبی جدید ب...

full text

نقد و بررسی طبقه بندی های موضوعی قرآن

طبقه بندی موضوعی قرآن پیشنه ای طولانی دارد اما در عصر حاضر تحول زیادی در این حوزه رخ داده و طبقه بندی های مختلفی شکل گرفته است. این طبقه بندی ها در دو شکل طبقه بندی مستقل و طبقه بندی تفاسیر موضوعی از موضوعات قرآن قابل دسته بندی است. بخش قابل توجهی از طبقه بندی های مستقل، استقصای کاملی از موضوعات قرآنی ندارند و روال منطقی در بررسی موضوعات آن ها وجود ندارد. هم چنین نوعی سلیقه نیز در تنظیم این دست...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023